{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "from lxml import etree\n",
    "import requests\n",
    "from time import sleep\n",
    "import csv\n",
    "import numpy as np"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "29"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fp =  open(\"douubantop250.csv\",'w',encoding='utf-8-sig')\n",
    "\n",
    "writer = csv.writer(fp)#实例化一个writer对象\n",
    "\n",
    "writer.writerow(['电影中文名','电影详情页连接','导演和演员','评分','评分人数'])\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第1页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第2页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第3页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第4页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第5页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第6页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第7页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第8页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第9页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------第10页爬取完毕----------------\n",
      "------------------over--------\n"
     ]
    }
   ],
   "source": [
    "import requests\n",
    "from time import sleep\n",
    "from lxml import etree\n",
    "import csv\n",
    "\n",
    "fp = open('top250_movies.csv', 'w', newline='', encoding='utf-8-sig')\n",
    "writer = csv.writer(fp)\n",
    "writer.writerow(['Title', 'Link', 'Info', 'Score', 'Num of Reviews'])\n",
    "\n",
    "for i in range(0, 226, 25):\n",
    "    url = 'https://movie.douban.com/top250?start=' + str(i) + '&filter='\n",
    "    headers = {\n",
    "        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'\n",
    "    }\n",
    "    resp = requests.get(url=url, headers=headers)\n",
    "    sleep(1)\n",
    "    data = etree.HTML(resp.text)\n",
    "    li_list = data.xpath('//ol[@class=\"grid_view\"]/li')\n",
    "\n",
    "    for each in li_list:\n",
    "        title = each.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]\n",
    "        \n",
    "        link = each.xpath('./div/div[2]/div[1]/a/@href')[0]\n",
    "        \n",
    "        info = each.xpath('./div/div[2]/div[2]/p[1]/text()')[0].strip()\n",
    "        \n",
    "        score = each.xpath('./div/div[2]/div[2]/div//span[2]/text()')[0]\n",
    "        \n",
    "        num = each.xpath('./div/div[2]/div[2]/div//span[4]/text()')[0]\n",
    "        \n",
    "        writer.writerow([title, link, info, score, num])\n",
    "        print(f'------------第{int((i/25)+1)}页爬取完毕----------------')\n",
    "\n",
    "fp.close()\n",
    "print('------------------over--------')\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
